查看原文
其他

大公司|争夺应用场景,大厂各自定义「大模型」

吴洋洋 何昕晔 新皮层NewNewThing 2023-08-02

「大公司动态,只在需要关注时更新」


记者:吴洋洋  何昕晔

编辑:陈   锐

Key Points


微软已经开始从AI中赚钱;


阿里云的智能体初尝试;


华为决战底层数据和算法;


腾讯想要toB,但现有核心应用还是toC。


7月11日,毕马威(KPMG)与微软达成了一项协议,毕马威将使用微软的人工智能(AI)和云计算服务,预算是5年内20亿美元。相应地,这家全球四大会计师事务所之一希望,这笔投资能够为公司在未来5年内每年创造120亿美元的回报。按照其2022年的营收计算,相当于这批「AI员工」未来每年要为公司承担7%的业绩。

审计需要处理海量财务文件,这是诸多相关工种中相对标准化的工作之一 ——审查、总结并圈出其中的可疑之处,这正是生成式AI(AIGC)中的大语言模型(Large Language Models, LLMs)擅长的。而且,成熟的AI产品还会在其工作成果中给出每项结论的出处,方便人类检查。

自ChatGPT发布,「大模型」已开始从论文里的技术术语,变成人工智能公司的真实营收,尤其是同时具有AI模型和云计算能力的公司,比如微软。

中国的云计算公司也正在努力效仿这一商业模式。

在刚刚结束的上海2023世界人工智能大会(WAIC)上,阿里巴巴、华为、腾讯、百度等大公司都设台展示了他们的「大模型」,并解释想要攻占的应用场景,金融都是其中之一。

与此同时,当「大模型」一词被滥用,这场关于应用场景的同台竞技,也第一次让外界有机会分辨这些大公司分别在构建什么、更重视什么以及它们的战略差异和进度差异。


阿里云:智能体的初尝试

7月7日,阿里云在WAIC现场宣布推出文生图产品「通义万相」,成为继百度之后,国内技术大厂发布的第二个文生图产品(第一个是百度,它推出的同类产品为「文心一格」),同时也是继文生文产品「通义千问」(4月发布)和文转音产品「通义听悟」(6月发布)后,阿里云的第三款toC应用。

文生图产品「通义万相」

在文生图产品后,阿里云CTO周靖人接着发布了旗下第一个智能体(AI Agent)——ModelScopeGPT。该智能体存在于阿里云的模型集中地「魔搭社区」,面向开发者群体,使开发者可以用自然语言与之交互。周靖人称,这一智能体理解开发者的任务需求后,可以自主拆解任务需求,寻找并对接到最适合的模型、数据及其接口。

今天很多应用场景中的问题都不是单一模型能够解决的,需要多个模型。」周靖人在发布会后的群访中说,以语音生成为例,AI的实际工作分为几个阶段:第一步用语言模型生成创意文案,第二步用语音模型将文案转化为语音。视频生成同样如此,都需要几个AI合作。

阿里云试图用另一个AI——一个AI的包工头——来解决这一问题。在周靖人的描述中,ModelScopeGPT能够根据开发者的自然语言理解它要做的任务,之后,它会拆解这个任务,自动产生代码调用相应的模型(你可以把它理解为一个AI),并把结果给到另外一个模型(另一个AI)使用,如果某一任务有多个模型都可以完成,ModelScopeGPT还要能找到其中的最优模型并调用它。

AI智能体ModelScopeGPT。

阿里云所发布的智能体在全球并不是新鲜事物。OpenAI CEO山姆·奥特曼(Sam Altman)曾在多个场合声称「大模型的游戏已经结束,智能体才是未来」。图灵奖得主Hinton曾多次警告的AI灭绝人类风险,主要理由也是相应的智能体将日益具备分解复杂任务的能力,人类能控制总任务、总目标,不代表人类能控制这些AI智能体凭借自己智慧分解出来的子任务、子目标。

Altman也许言过其实——尤其在中国市场——不过OpenAI联合创始人Andrej Karpathy的说法正在被更多人接受。6月底,这位联合创始人在一个开发者活动上称:「5年前(2016年左右),当时的业界潮流就是研究如何用强化学习的方法来改进AI智能体……但现在有了全新的技术手段来研究AI智能体。

Karpathy所说的全新技术手段就是大模型——无论大语言模型还是大视觉模型或者大生物模型,总之,就是基于Transformer的预训练模型。今年4月,浙江大学和微软就发布过一款大模型协作系统HuggingGPT,它能够连接HuggingFace社区中的各种AI模型,跨模态地解决开发者提出的任务需求,像一个模型管家或者遥控器一样工作。

「HuggingGPT是在它的模型生态(指HuggingFace)里,今天,ModelScopeGPT有我们自身的模型生态(指魔搭社区)……你问我们要不要引入第三方模型,回答是Absolutely Yes。」周靖人说。

目前,百川智能、智谱、IDEA等多个人工智能公司的模型都已加入阿里云的魔搭社区。根据规划,阿里云未来将不止ModelScopeGPT一个智能体,还将有一系列智能体推出。

阿里云不是国内唯一一家布局智能体的云计算公司。华为在该领域也有布局,不过更侧重「具身智能」(Embodied AI),即将大模型与机器人结合起来,它可能是人形机器人,也可能是其他形状(新皮层此前对WAIC的相关报道已提及)。


华为:决战底层数据和算法

阿里云在上海发布智能体ModelScopeGPT的同一天,华为也在深圳发布了其首款「具身智能」产品,短片演示显示:用户不需要输入程序性指令,只需要用自然语言向机器人下令,机器人就可以完成拿取物品等任务,过程中,机器人会根据所处环境作出自主判断(比如移开挡住目标物体的杂物),从而完成任务。华为称,该演示并非概念视频,而是来自真实产品。不过华为并未展示这款机器人的实体。

7月7日,除了在上海人工智能大会上参展,华为还在深圳举办了自己的开发者大会。发布上述「具身智能」产品之外,它在会上主要发布了其3.0版的大模型——盘古大模型3.0

当天的宣讲中,盘古3.0被描述为一个包含「5+N+X」三层架构的大系统——5、N和X分别对应系统的L0、L1和L2层。其中,L0层是5个「基础大模型」:包括自然语言处理大模型、多模态大模型、数据大模型、预测大模型、科学计算大模型。这些模型包含从100亿到380亿、710亿、1000亿不等的参数,整体可以完成知识问答、文案生成、代码生成、图像生成、图像理解等任务。

基于华为大模型的「具身智能」机器人。

L1层是N个「行业大模型」(目前为7个):包括政务、金融、制造、药物分子、矿山、铁路和气象大模型。这些模型有的会使用到L0层的基础模型,比如政务、金融模型都会使用到L0层的自然语言处理模型;有的则基于非自然语言的其他类型数据直接训练。

比如药物分子大模型,它使用药物分子库中的数据做训练,学习病毒的靶向分子和药物分子之间的关系,预测对抗新病毒的新药分子。DeepMind旗下的蛋白质预测工具AlphaFold就是类似的生物预测工具,只不过它预测的是蛋白质分子,华为预测的是药物分子。

矿山大模型则其实是一种图像识别工具,主要用来识别传送带上的矿物是否符合标准。与传统图像识别(比如我们每个人都用过的人脸识别)技术不同,华为在新模型中使用的是基于Transformer的预训练模型,其优势是能够补全图像,从而使识别更清晰。特德·姜在那篇有名的关于GPT的评论中描述过这种现象,这类模型擅长的就是「通过两侧猜测中间」——无论对象是单词还是像素。

总之,不同大模型本质都是基于Transformer的预训练模型,但不同模型使用的训练数据并不相同。

如何构建训练数据的维度,成为模型构建的重要环节。这一点从华为的气象大模型可以看出。华为7月6日发表在《自然》(Nature)杂志上的文章称,其气象大模型在气象预测速度上比现行气象预测工具提高了10000倍以上,能够几秒钟给出预测结果。而在预测精度上,该模型甚至超过号称全球最强的欧洲气象中心的IFS(Integrated Forecasting System)系统,成为第一个AI预测赢过传统预测的模型。

「原有的AI气象预报模型都基于2D神经网络,无法很好地处理不均匀的3D气象数据;而且,传统AI方法缺少数学物理机理约束,因此在迭代的过程中会不断积累迭代误差。为此,团队提出了适应地球坐标系统的三维神经网络(3D Earth-Specific Transformer)来处理复杂的不均匀3D气象数据。」华为在其官网对上述论文成果的介绍中称,基于这种数据建模方式,华为向模型灌注了过往43年的全球天气数据。

在L0的基础模型和L1的行业模型之上,华为提供L2层的X个「场景模型」,比如政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等,这些模型都是L0和L1层模型在各细分领域的场景化解决方案,让客户可以「开箱即用」。客户如果想要定制,可以基于自有数据,在L0和 L1层上训练自己的专有大模型。如果想要联合创新,华为也在L2层开放更多的API接口支持。


腾讯:想要toB,但现有应用都是toC

一个月前,腾讯发布了「腾讯行业大模型」这个没有专有名字的大模型其实是一系列模型的集合,既包括腾讯云研发的自有模型,也包括第三方模型公司开发的模型,比如百川智能。

腾讯一直避免对外解释这个行业大模型同「混元」的关系。只声称它是面向「包括金融,文旅,传媒,政府,零售等10多个行业在内的高质量大模型」,并称客户也「可以加入自己独有场景数据做精调」。

「混元」是腾讯对标GPT开发的大语言模型,而相应的对话产品在之前的媒体报道中被描述为「混元助手」。根据过往报道,今年2月,腾讯成立「混元助手」(HunyuanAide)项目组,计划推出类ChatGPT的对话产品。该项目组一号组员为拥有腾讯最高专业职级的张正友,早年就职于微软研究院,擅长计算机视觉。

《新皮层》在世界人工智能大会期间采访相关人士获悉,腾讯已发布的「行业大模型」中并不包含「混元」,至于混元何时开发完成,内部人士也未知。并且,「行业大模型」所属的腾讯优图团队由吴运声带领,吴运声同时也是腾讯云副总裁,「混元」大模型所属团队由张正友带领,后者同时也是腾讯AI Lab的负责人。而优图AI Lab是腾讯旗下存在多年的不同AI实验室,过往研发重点分别侧重图像和自动驾驶。

也就是说,腾讯现已发布的「行业大模型」主要是腾讯云的产品,并非腾讯集团层面的代表产品。未来,腾讯可能将在某个时间点再推出一个新的大模型,即「混元」。

用于游戏场景的3D数字人。

WAIC展会期间,腾讯展台展示的一大应用是数字人,包括面向直播场景的真人数字人,和面向游戏、金融、政务场景的虚拟数字人,两者目前都只涉及图像大模型和音频大模型的应用,尚未涉及语言大模型。这两款数字人尚不能根据图片自主生成文字内容,也不能根据文字自主生成图像,只能根据个人形象采集生成对应数字形象,以及根据现有文字生成对应语音。

腾讯工作人员对《新皮层》称,未来「混元」推出后,不排除接入这样的生成式语言模型,让数字人有更大的发挥空间。

ChatGPT诞生后,几乎所有云计算公司的CEO都在将大模型定义为一种「Game Changer」。在各大厂内部,云计算团队也因此都比内部其他团队更为积极。不过,「现在是大模型与行业结合的初级阶段,底层技术也变化很快,现在下任何结论都过早。」吴运声在7月7日接受媒体群访时说。


总之,进入大模型时代,行业词汇越来越通胀,不过,泡沫之下,AI技术的分支也越来越多,大公司将重新面临选择。


-END-


我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。 

和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。

在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。


若想了解更多当日资讯,请点击阅读往期智能晚报

智能晚报|富士康退出印度半导体计划;百川智能发布新款开源大模型;Google AR 团队高级总监离职。

若想了解头条新闻,请点击阅读往期

六月综述|大模型的中期战事


与记者交流,可添加微信(请备注公司名称和姓名):

王杰夫 微信号: wjfsty

张司钰 微信号: helianthus351

吴洋洋 微信号: qitianjiuye

 

喜欢就关注我们吧,记得设为星标」


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存